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摘要 :针对 智能 体 在 局 部 观测 下 无 法 有 效 决策 的 问题 ,提出 了 一 种 结合 深度 强化 学 习 的 冲突 消解 方法 。 该 方法 基于 
DDQN 算法 ,利用 强化 学 习 的 学 习 模 式 的 特性 ,计算 智能 体 的 累计 回报 ,通过 回报 值 的 大 小 确定 智能 体 的 优先 级 ,从 而 达到 
冲突 消解 的 目的 。 通 过 模拟 现实 生活 中 的 堵车 场景 对 该 方法 进行 评估 ,实验 结果 表明 ,该 方法 能 有 效 解决 智能 体 的 冲突 。 
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A multi-agent conflict resolution method based on DDQN 
ZHANG Yi. ZHAO Lingzhong. ZHAI Zhongyi 


(School of Computer and Information Security. Guilin University of Electronic Technology. Guilin 541004, China) 


bstract: To solve the problem that agents cannot make effective decisions under local observation. a conflict resolution 


iethod combined with deep reinforcement learning is proposed. Based on DDQN algorithm, this method uses the character- 
fics of reinforcement learning mode to calculate the cumulative return of agent and determine the priority of agent through 


T return value, so as to achieve the purpose of conflict resolution. The method is evaluated by simulating the traffic jam in 


Al life, and the experimental results show that the method can effectively solve the agent conflict. 
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三 随 着 人 工 智能 的 不 断 发展 , 其 不 断 地 改变 着 人 们 
an 当 人 们 在 解决 现实 世界 中 的 


RE. 面 对 越 来 越 复杂 、 多 变 的 环境 ,单一 智能 体 已 
经 很 难 解决 ， ee 能 体 协 作 解 决 问 CI) CC) 
题 。 然 而 ,在 智能 体 互相 协作 的 过 程 中 ,受到 环境 、 资 (EID) (ED) 


源 等 因素 的 影响 ,智能 体 之 间 难 免 会 产生 冲突 。 例 
如 ,如 图 1 所 示 的 交通 车 辆 冲突 场景 , 当 多 辆 智能 


要 通过 同一 个 路 口 时 ,会 产生 智能 体 冲突 问题 ,车 此 图 1 交通 车 辆 冲突 场景 

时 其 中 一 辆 车 为 救护 车 ,救护 车 必须 优先 通过 路 口 ， 

则 解决 这 种 冲突 问题 就 显得 更 为 迫切 。 术 相 结合 ,利用 深度 神经 网 络 (DNN) 来 拟 合 智能 体 的 
近年 来 , 随 着 强化 学 习 技术 的 快速 发 展 及 其 在 多 ”状态 价值 函数 ,解决 了 智能 体 维度 爆炸 的 问题 忆 。 

个 领域 的 成 功 应 用 ,各 种 强化 学 习 方 法 被 应 用 于 多 智 在 单 智能 体 环境 中 ,环境 只 受 单个 智能 体 的 影 


能 体 领域 。 因 强化 学 习 无 需 环境 建 模 ,智能 体能 与 。 响 ,因此 智能 体 的 局 部 观察 就 是 对 环境 的 全 局 观测 。 
其 所 在 环境 进行 自主 交互 学 习 , 大 大 提高 了 计算 效率 。 ”但 在 多 智能 体 环境 下 ,环境 受 多 个 智能 体 的 影响 , 知 
近期 ,谷歌 团队 成 功 地 将 强化 学 习 技 术 与 深度 学 习 技 ”能 体 只 有 自身 的 局 部 观测 ,而 无 法 观测 到 整个 环境 ， 
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因而 无 法 有 效 解决 多 智能 体 间 冲 突 问题 。 部 分 学 者 “对 现实 决策 的 过 高 估计 而 提出 的 。DDQN 结合 了 深 

通过 在 智能 体 问 直接 建立 通信 的 方式 解决 该 问题 , 虽 ——— 度 学 习 技术 ,用 神经 网 络 拟 合 智能 体 的 状态 价值 函 


然 取 得 了 一 定 成 功 ,但 在 有 些 环境 下 , 却 无 法 建立 通 
信 ,或 通信 开销 大大 ,无 法 适用 。 
针对 以 上 问题 ,提出 了 一 种 基于 eh 
能 体 冲 突 消解 方法 ,利用 标志 位 对 AIR 态 进 
行 存储 ,为 智能 体 间 建立 间接 通信 , 知 p 
标志 位 的 信息 及 自身 的 局 部 观测 进行 学 习 和 决策 。 
智能 体 根 据 DDQN 算法 计算 出 累积 回报 值 , 再 通过 
优先 级 算法 得 出 自身 优先 级 ,最 后 根据 优先 级 进行 动 
作 选 择 。 


1 相关 知识 


1. Š 局 部 可 观测 马尔 科 夫 决策 


站 在 多 智能 体系 统 中 ,各 个 智能 体 由 于 各 种 因素 影 
" 很 难 全 局 观测 到 整 多 个 环境 ,因此 可 将 整个 强化 学 
APER SCA srt 可 观测 马尔 科 夫 决策 过 程 (decen- 
ttahzed partially observable markov decision 
pcess ,简称 DecPOMDP)。 通 常 ,将 它 定 义 为 一 个 
长 重组 <N,S,A,P,R,O,7Y>, 其 中 : N 为 智能 体 


的 集合 ;S 为 所 有 智能 体 当 前 时 刻 的 状态 及 环境 信 
总 六 = i. v} 表 示 所 有 智能 体 的 联合 动 
(ea Siki 可 选择 的 所 有 局 部 动作 的 集 


ee. PA 人 1 为 状态 转移 函数 ,是 关于 智 
能 保 状 态 和 动作 的 函数 ， 表示 在 上 时 刻 智能 体 处 于 状 
态 -7,s, € S 选择 了 动作 a ,a € A ,然后 转移 到 下 一 状 
d Sei 的 概率 ; R 为 所 有 智能 体 共 享 的 奖励 函数 ;O 
二 {O01,0,,…,On) 为 所 有 智能 体 的 联合 观测 值 ,0， 
为 智能 体 i 的 观测 值 ;YE [0,1j 为 折扣 因子 ,表示 未 
来 时 刻 的 奖励 对 累积 奖励 的 影响 ,是 为 了 避免 末 来 时 
刻 的 奖励 无 限制 地 释 加 而 造成 累积 奖励 值 无 法 收 鳅 
的 情况 而 设 。 

在 部 分 可 观测 马尔 科 夫 决策 过 程 中 ,智能 体 无 法 
观测 到 全 局 状态 ,所 以 智 iPad TR MR 
W O; 进行 决策 ,从 而 采取 动作 ;智能 体 执 行动 作 后 ， 
环境 会 根据 状态 转移 函数 转移 到 下 一 状态 HA 
到 一 个 环境 反馈 的 奖励 值 ~, 每 个 智能 体 的 目标 都 是 
最 大 化 累积 奖励 : 


1.2 DDQN 算法 


DDQN (double deep Q network)?! EX} DQN 
(deep Q-networks) 的 一 种 改进 ,是 为 了 克服 DQN 中 


E 直接 估计 智能 体 的 状态 和 动作 值 。DDQN 中 的 
内 部 网 络 结构 与 DQN 相同 ,但 其 将 智能 体 动作 的 选 
择 和 对 动作 价值 的 评 佑 分 别 用 2 个 神经 网 络 进行 训 
练 。 神 经 网 络 输入 的 是 智能 体 的 观测 值 ,输出 的 是 下 
一 时 刻 选 择 的 动作 值 , 智 能 体 以 一 定 概 率 选 择 最 大 值 
的 动作 作为 下 一 时 刻 的 动作 。DDQN 的 决策 过 程 
WF: 

输入 智能 体 的 状态 信息 ,网 络 输出 智能 体 的 各 个 
动作 价值 ,也 就 是 Q 值 ,DDQN 并 不 是 直接 在 目标 网 
络 中 找 各 个 动作 估计 的 最 大 Q 值 ,而 是 先 在 当前 网 
络 中 找 出 最 大 Q 值 对 应 的 动作 a， 


a" (5/,0) =max Q^ ,a 0), (D 

其 中 “为 智能 体 i 的 下 一 时 刻 的 状态 。 通 过 目标 网 
络 获得 动作 a 对 应 的 Q fi. 

y; =R; - YQ G/.a"*/,00,00,. D 


由 式 (1)、(2) 可 得 目标 Q 值 的 计算 式 : 
y; =R; -- YQ'G' arg maQG,a 00,0), (3) 


2 基于 DDQN 的 多 智能 体 冲 突 消解 模型 


该 模型 首先 利用 智能 体 的 状态 信息 及 动作 信息 
计算 出 智能 体 在 累积 时 间 内 的 回报 值 ,通过 回报 值 计 
算出 智能 体 优先 级 ,然后 修改 标志 位 。 所 有 智能 体 根 
据 标 志 位 及 各 自 的 局 部 观测 信息 进行 决策 ,最 终 达 到 
冲突 消解 的 目的 。 


2.1 模型 架构 及 流程 


该 模型 是 一 个 智能 体 冲突 消解 模型 ,其 主要 思想 
是 利用 标志 位 和 智能 体 的 局 部 观测 来 计算 并 得 到 智 
能 体 的 优先 级 ,然后 进行 决策 。 

a odd 2 所 示 , 由 2 个 模块 构成 ， 
是 优先 级 计算 模块 ,该 模块 主要 是 通过 计算 累积 
pos i 并 利用 回报 值 来 计算 智能 体 的 优 
先 级 ; 另 一 个 是 动作 选取 的 模块 ,智能 体 在 得 到 优先 
级 后 ， quen 值 . 优 先 级 和 标志 位 信息 输入 模型 , 
进行 动作 选择 ,该 模块 会 对 所 有 可 能 的 动作 进行 评 
fi ,选择 奖励 值 最 大 的 动作 作为 智能 体 下 一 时 刻 的 

动作 。 
整个 冲突 消解 过 程 主要 分 为 4 个 阶段 : 
1) 智 能 体 通过 与 环境 交互 获得 局 部 观测 值 ; 
2) 利 用 局 部 观测 值 和 DDQN 算法 ,计算 出 智能 
体 的 累积 回报 值 ; 
3) 将 累积 回报 值 输入 优先 级 计算 模块 ,得 出 智能 
体 优先 级 ,然后 修改 标志 位 ; 
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智能 体 B 智能 体 C Initialize resource flag 
for i —0 — n do 
Execute A; 
Set flag 
i : Send message M, to other agent 
优先 级 计算 优先 级 计算 优先 级 计算 "m d l LN 
动作 选择 动作 选择 动作 选择 ther agent update policy with Mi 
| | | If A; complete then 
Set flag 
全 局 信息 end if 


图 2 智能 体内 部 结构 


4) 将 优先 级 及 自身 的 局 部 观测 值 输 入 动作 选择 
模块 中 ,计算 出 智能 体 将 要 执行 的 动作 。 具 体 模型 如 
区 3, 所 示 。 


计算 智能 体 优先 级 


图 3 冲突 消解 模型 


该 模型 中 ,智能 体 无 需 对 环境 进行 完整 观测 ， 
上 ES 自身 的 局 部 观测 和 与 其 余 智 能 体 通过 标志 


位 脖 行 间接 沟通 ,就 能 进行 有 效 的 决策 。 


2.9) 优先 级 计算 模块 


在 智能 体 冲 突 消解 过 程 中 ,每 个 智能 体 都 需要 计 
算出 优先 级 ,上 且 智 能 体 之 间 需 要 进行 协商 。 因 此 , 针 
对 优先 级 计算 机 模块 ,提出 了 优先 级 算法 与 协商 算 
法 。 智 能 体 通过 优先 级 算法 得 出 优先 级 ,再 利用 协商 
算法 得 出 优先 级 顺序 。 


2.2.1 协商 算法 

协商 算法 如 算法 1 所 示 , 该 算法 是 对 智能 体 间 的 
标志 位 进行 计算 修改 。 具 体 流程 如 下 : 先 初始 化 标志 
位 ,然后 智能 体 通过 局 部 观测 值 计算 出 优先 级 ;再 改 
变 标志 位 的 信息 ,标志 位 信息 传递 给 其 他 智能 体 ; 其 
他 智能 体 在 得 到 标志 位 信息 后 ,再 根据 自身 的 局 部 观 
测 值 计算 出 新 的 优先 级 ,最 终 所 有 智能 体 计算 得 出 优 
先 级 。 

算法 1 协商 算法 

Input: Agent Number 7 


Send message M, to other agent 
update 7 +1 — i 
End for 
2.2.2 优先 级 算法 
优先 级 算法 主要 用 于 计算 各 个 智能 体 的 优先 级 。 
算法 2 优先 级 算法 


Input: learning rate 7. mini-batch size k, dis- 


count factor Y. network update period r. replay 
memory D , action-value function Q, weights 0 
Output: Network parameter 0 
for iteration — 1 — M do 
for agent n —1 — N do 
Sample state s, 
end for 
for stept —1 — T do 
for agent n —1 — N do 
Select the biggest reward action a,. n 
with probability e 
Execute a, 
Sample state sl , and reward r, 
end for 
Store transition and new message m in D 
for iteration j —1 —> k do 
Update 0 < 0 -- *V0;L; (0;) 
end for 
update network weight 0 with 0; ever t step 
end for 
end for 
其 中 :Q 值 是 所 有 智能 体 的 联合 Q 值 , 在 智能 体 的 协 
作 场 景 中 ,每 个 智能 体 的 最 佳 动作 就 是 各 自 Q 值 最 
大 的 动作 ; D 是 一 个 公共 信息 存储 位 ,可 被 所 有 智能 
体 计 算 和 存储 。 该 存储 空间 用 于 存储 各 个 智能 体 的 
状态 信息 ,利用 该 存储 位 信息 去 更 新 神经 网 络 。 智 能 
体 以 概率 e 随机 选取 信息 。 不 同 于 智能 体 间 直 接 建 
立 通信 的 方式 于 2 ,该 方法 利用 公共 标志 位 为 智能 体 
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间 建 立 间 接 通信 ,通过 存储 各 个 智能 体 的 历史 经 验 信 
息 ,智能 体 只 需 自 身 的 局 部 观测 和 公共 的 信息 就 能 进 
行 有 效 决 策 。 

2.3 动作 选择 模块 


在 智能 体 的 动作 选择 模块 ,神经 网 络 每 次 都 会 输 
出 智能 体 下 一 时 刻 可 以 执行 的 动作 ,通常 都 会 选择 回 
报 值 最 大 的 动作 ,然后 智能 体 通过 选择 动作 与 优先 级 
进行 决策 ,具体 过 程 如 下 : 
通过 算法 2 计算 出 智能 体 在 上 时 刻 的 累计 回 
报 值 ， 


RP =y + Gs a3. (4) 

HP:s DEGERE t H1 时 刻 观 察 到 的 局 部 状态 ; 
yf?r 为 智能 体 : 前 :一 1 时 刻 的 累计 报酬 ;Q 为 1 时 
刻 移 所 选取 动作 的 Q 值 。 对 于 智能 体 的 动作 选择 ， 
每 次 选择 Q 值 最 大 的 动作 ， 
| a, =max QCG, ;0), (5) 
其 中 ,0 为 此 时 动作 选择 网 络 的 参数 。 
回 根 据 计 算出 的 个 体 累 积 报酬 计算 智能 体 的 优先 
级 :其 中 V(s, ) 为 状态 值 ,表示 智能 体 当 前 状态 下 的 
优先 级 。 

VGs,30,) =E[R, | s,=s,a,=(a;0,)]。 ©) 


3 Ss 实验 与 分 析 


为 了 验证 和 评 佑 基于 DDQN 的 智能 体 冲 突 消 解 
模型 的 性 能 ,用 公开 可 用 的 仿真 环境 进行 仿真 实验 。 
方法 用 Pytorch 实现 ,所 有 的 实验 均 在 64 位 Window 
1 电脑 上 进行 ,该 电脑 具有 Intel Xeon E5-1630 
CPU(23. 10 GHz.8 GiB 内 存 的 配置 ,日 不 使 用 GPU 
加 速 。 此 外 ,用 PyCharm IDE 作为 开发 环境 。 


3.1 实验 环境 


将 交通 冲突 场景 构建 为 一 个 模拟 环境 ,如 图 4 所 
示 。 模 拟 场景 的 具体 规则 如 下 : 

1) 不 同 颜色 的 圆圈 代表 不 同类 型 的 智能 体 , 不 同 
颜色 的 方 格 代表 不 同 的 目标 位 置 ; 

2) 不 同类 型 的 智能 体 要 到 达 相 应 颜色 的 位 置 才 
算 任 务 完成 ; 

3) 智 能 体 在 每 个 时 间 步 有 向 上 、 向 下 、 向 左 、 向 
右 、 原 地 等 待 5 个 动作 可 以 选择 ; 

4) 黑 色 区 域 部 分 是 智能 体 禁 止 通过 的 区 域 ,每 个 
时 间 步 智能 体 只 能 选择 一 个 动作 。 

本 实验 参数 设置 为 :学 习 率 a — 0.005. 折扣 系 
数 7==0.99, 且 折扣 系数 随 着 训练 的 进行 逐渐 递减 ， 
每 300 个 步 长 更 新 一 次 神经 网 络 。 


图 4 智能 车 冲突 仿真 环境 


3.2 实验 结果 与 分 析 


仿真 实验 共 进 行 了 50 000 个 回合 的 训练 ,最 终 
的 评价 指标 为 智能 体 的 联合 奖励 平均 值 ,实验 结果 如 
图 5 所 示 。 从 图 5 可 看 出 ,2 种 方法 的 结果 都 由 开始 
的 快速 增长 直到 趋 于 稳定 ,但 基于 DDQN 的 冲突 消 
解 的 方法 优 于 传统 方法 , 且 该 方法 能 够 达到 一 个 较 高 
的 回报 值 水 平 。 


一 本 方法 
一 传统 方法 


770 10000 20000 30000 


回合 


40000 50000 


图 5 智能 体 平均 奖励 值 


对 于 传统 方法 ,智能 体 需 对 整个 环境 进行 建 模 ， 
存储 自身 的 状态 价值 信息 , 增 大 了 计算 的 复杂 性 。 而 
对 于 基于 DDQN 的 冲突 消解 方式 ,智能 体能 够 自主 
地 与 环境 进行 交互 学 习 , 且 智能 体 无 需 对 环境 进行 全 
局 观察 ,只 需 通过 标志 位 及 自身 的 局 部 观测 ,就 能 
进行 自主 决策 。 冲 突 消 解 的 关键 在 于 智能 体 之 间 优 
先 级 的 大 小 ,由 于 强化 学 习 的 特性 ,可 利用 智能 体 的 
累积 回报 值 计 算 优先 级 ,因此 该 方法 能 较 快 地 得 出 智 
能 体 的 优先 级 。 从 图 5 还 可 看 出 ,与 传统 方法 相 比 ， 
在 相同 时 间 内 ,该 方法 能 使 智能 体 获 得 更 大 的 回报 
值 , 表 明 该 方法 能 让 智能 体 做 出 更 好 的 决策 。 因 此 ， 
基于 DDQN 的 冲突 消解 模型 能 更 好 地 解决 智能 体 间 
的 冲突 问题 ,也 为 局 部 观测 问题 提出 了 新 的 思路 。 


4 结束 语 


对 于 智能 体 间 的 冲突 问题 ,传统 方式 需要 复杂 的 
建 模 和 计算 ,无 法 很 好 地 解决 。 因 此 ,提出 了 基于 
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先 级 大 小 。 实 验 结 果 表 明 ,该 智能 体 冲 突 消 解 方法 能 
有 效 解决 智能 体 的 冲突 问题 。 
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